from gxl_ai_utils.utils import utils_file
import re

def do_filter_for_encn(input_str):
    """"""
    # 将英文字母转换为大写
    text = input_str.upper()
    # 英文单词之间如果存在_ ▁则使用空格代替
    text = re.sub(r'([a-zA-Z])_([a-zA-Z])', r'\1 \2', text)
    text = re.sub(r'([a-zA-Z])▁([a-zA-Z])', r'\1 \2', text)
    # 去除汉字之间的空格
    text = re.sub(r'\s+([\u4e00-\u9fa5])', r'\1', text)
    # 汉字与英文单词之间使用空格隔开
    text = re.sub(r'([\u4e00-\u9fa5])([a-zA-Z])', r'\1 \2', text)
    text = re.sub(r'([a-zA-Z])([\u4e00-\u9fa5])', r'\1 \2', text)
    return text


if __name__=="__main__":
    input_text = "hello 我是 耿雪龙 你是 谁 哈 啊哈 I am Dragon 你是WHO 呀 嘻嘻YOU_ARE_BIBI是吗"
    input_text = "把这个笔记给记一下好吧把THANKS▁TO和THANKS▁FOR的一个区别记一下记了之后呢我们再来看一下     这一个 例题我们这里有两个例题"
    print(do_filter_for_encn(input_text))